這幾天 AI 圈都在被 Sora 2 刷屏,沒想到國產 AI 也悄咪咪地幹了票大的。騰訊的混元圖像大模型 3.0,才發佈一週,就在全球最硬核的 AI 競技場 LMArena 上殺瘋了——在26 個全球頂級模型混戰,拿下文生圖全球榜單的 Top 1!這可不是什麼野榜,LMArena 是加州大學伯克利分校搞的,純靠全球網友「盲測」投票,誰好誰壞,全憑真實體驗說話。簡單說,就是把所有模型的名字都遮住,讓你憑感覺二選一,選出你更喜歡的那張圖。這種機制下拿第一,含金量可想而知。LMArena 官方也發文祝賀,說這是「文生圖排行榜大洗牌」,稱混元圖像 3.0 已經超過了 Google 爆火的 nano banana。騰訊這個開源模型實打實把一眾頂級閉源模型都給「干沉默」了.APPSO 也深度體驗了混元圖像大模型 3.0,再次分享給大家。中秋佳節將至,不妨用它來傳達些有意思的祝福,APPSO 預祝大家團團圓圓閤家歡樂。混元圖像 3.0 的最大的亮點是,不僅能畫圖,還能精準「理解」,和利用世界知識「推理」。比如我們想做一張廣告海報,它能把商品畫出來,還順手把文字排版好;想做一套漫畫,輸入一句話,它就能幫我們畫好分鏡。聽起來是很強,但也讓人好奇,它真能替代設計師嗎?還是只是多了點「聰明」的生圖?畢竟我們手上已經有 nano banana 這樣強大的圖像編輯模型,更不用說其他層出不窮的生圖模型。體驗地址:https://hunyuan.tencent.com/modelSquare/home/play?modelId=289&from=/visual在開始我們的實測之前,先看看這次 3.0 更新了什麼內容。這是首個開放原始碼的工業級原生多模態生圖模型。多模態的能力,意味著它不僅能畫畫,還具備語言模型的理解和推理能力,在畫之前,它可以先想清楚要畫什麼。開源方面,混元圖像 3.0 的體量和能力都處於最前列,參數規模高達 80B,是目前最大的開源生圖模型。騰訊混元圖像 3.0 模型框架圖,80B 參數的 MoE 結構原生多模態架構,也讓一個模型,就可以同時處理文字、圖像、視訊、音訊的輸入輸出,而不是把幾個不同模型拼湊在一起;此外,文字生成的能力,也是混元圖像 3.0 的一大主打,它號稱能解析千字等級的複雜語義內容,精確生成長文字文字。騰訊混元把它形容成一個自帶「大腦」的畫家。使用者只需給出大方向,它就能用常識和世界知識把畫面補全,生成真實、細膩、帶有美學質感的圖像。採用了常用於評估圖像生成效果的 GSB(好/一樣/差)評價方法。總共使用了1000 個文字提示,100 多名專業評估人員,混元圖像 3.0 與 nano banana 和字節跳動的 Seedream,以及 GPT-IMG 對比,一樣好的情況佔比最多,而深灰色部分,則代表混元圖像 3.0 更好,淺灰色代表用來對比的模型更好。光說不練假把式。從常識到創意,從專業到玩梗,我們用不同的提示詞,全方位地測試了這個混元圖像 3.0 模型的生圖能力,結果低估它了?世界知識和推理,AI 像人一樣畫畫有了世界知識,最大的好處,我們的提示詞可以更像人話。就像下面這張圖,我們直接告訴它 labubu,而不用專門去描述 labubu 這個形象具體是什麼樣。生成一個畫出 labubu 的四宮格素描畫流程而一些特定的知識上,它似乎也有查詢的能力,並應用在圖像生成的過程中。像下面這張圖片,我的提示詞只有 3 號線、客村站這些資訊,但是模型推理出下一站是廣州塔、珠江新城、體育西路。更令我感到驚喜的是,混元圖像 3.0 對文字生成的把控,幾乎是做到了精準還原。廣州地鐵客村站站台實拍圖,遮蔽門頂部有顯示3號線的站點情況我們也用 nano banana、ChatGPT、和豆包生成同樣的照片,結果是,都只能根據我輸入提示詞的資訊來生圖,線路站點資訊,有些是文字渲染完全不行、有些是資訊錯誤、還有直接顯示「3 號線站點資訊」幾個字的。一時間不知道是該誇,服從使用者指令,還是說它知識學習得不夠多。不過 Seedream 給我的感覺,整張圖片的風格,是「AI 味」最少的。能夠利用世界知識進行推理,給了生圖模型更多的潛在玩法。就像開頭我們的 labubu 四宮格素描圖,可以擴展到做一些知識點的講解,這些經常在社交媒體平台上刷到的,漫畫科普小卡片。生成一個月全食的四格科普漫畫混元官方也給出了類似四宮格漫畫的提示詞指南,幫助我們單抽出金。開篇表明是四宮格漫畫:「一幅黑白四格漫畫。」分格子描述畫面:「第一格,xxx。第二格,xxx。第三格,xxx。第四格,xxx。」可以展開你的想像,填充細節,這樣效果會更好。想要高級感,很吃提示詞官方在它們 GitHub 倉庫放出的幾張圖片,我第一眼看到,想到的是朋友圈的那些範本封面圖,高級感真的拉滿。但我自己用一些簡單的提示詞,讓混元圖像 3.0 去做的時候,出來的圖片 AI 味是非常重的,甚至給我一種,這不像是 2025 年生圖模型的效果。在提示詞裡面,我們已經用了「日常拍照風格」、「復古濾鏡」等風格化用詞,但是最後的成片,還是高飽和度、高亮度。官方給出的攝影風格,提示詞參考技巧是,主體場景+畫質風格+構圖視角+光線氛圍+技術參數。我們又照著這個格式,重新測試了一回,效果上確實好了一些。指定多少毫米的鏡頭,在提示詞裡面,確定這類技術參數,我認為是生成真實圖片的關鍵。但還是很難抽到「AI 味」沒那麼重的圖片,目前混元圖像 3.0 也只支援文生圖,圖像的編輯功能暫時還沒有上線,所以對提示詞的要求,變得更高。騰訊混元團隊透露,圖生圖、圖像編輯、以及多輪互動等版本將在後續發佈。國外模型的難點,長文字生成真實照片的攝影風格比較不如意,其他風格化,像是卡通、漫畫以及不同材質的渲染,混元圖像 3.0 的表現確實不錯,以及還有一項長文字的生成能力。畫一個咖啡店的菜單黑板,上面寫著:拿鐵 - 30元,美式 - 25元,卡布奇諾 - 28元。而更複雜的文字,也需要掌握一些官方給出的技巧。將大段的文字拆成多句並使用多個引號,文字會更準確。同時,文字的精準性與 prompt 描述的佈局方式有一定關聯。可以嘗試以下的策略:(a)在渲染的文字前使用「第幾行寫著」、「左邊寫著」之類提示佈局資訊的詞(b)修改圖片長寬比(c)換一種內容佈局的方式(如左右佈局換成上下佈局)文章的幾個測試案例,大多集中在「玩」的階段。從效果看,混元圖像 3.0 的確在一些細節上比大部分模型更聰明,但能不能真的應用到具體的工業場景,選擇繼續開源是它最好的答案。最後,不得不說,生圖還是目前 GenAI 裡面最火的,模型能不能出圈,彷彿都得靠生圖。ChatGPT 靠一張吉卜力風格的照片、Gemini 則是用一張一致性極強的桌面手辦,獲得了空前的關注。從風格到一致性,傳達的都是這張照片給我們最直接的感覺,而非照片的具體含義。這大概是視覺動物的特點,一致性過後,AI 圖片的下一個大熱門,會是什麼呢?極強的創意,更極致的細節密度,往真實再進一步。 (APPSO)